连载(13):统计图形艺术——线性回归
中国近代启蒙思想家、翻译家严复(1854-1921)提出,翻译力求信、达、雅。统计图形,亦须如此。信(faithfulness),指意义不悖原文,要准确传达数据原有之义,不偏离,不遗漏,也不要随意增减意思;达(expressiveness),指不拘泥于固有形式,译力求通顺、易懂、明白;雅(elegance),指选用的图形、样式要得体,力求简明、优雅。
生物医学研究产生的数据纷繁复杂,合适的统计图形能够准确、简明、优雅的勾勒出数据背后之意,消除医学-数据-内涵之间的障碍,准确传递生物医学研究成果,这就是医学统计图形的魅力。
历经半年准备,我们图形小组将按照数据可视化、统计可视化、集成可视化三个模块,连载推送医学研究中常用统计图形之背景、场景、拓展、要点。文稿有多处不足,请广大读者斧正。尚有多处示例待优化,欢迎提供素材。
线性回归Linear Regression
回归(regression)的概念,是由英国的生物学家和统计学家Sir Francis Galton(高尔顿,1822~1911)在研究身高的遗传特性时提出。在其表哥达尔文的巨著《On the Origin of Species(物种起源)》出版后,促使了他用统计学手段来研究遗传和进化问题。“regression”一词来自拉丁语根,意为“going back”。他和他的学生Karl Pearson在观察1078对父母和子女身高数据时发现 [1],高个子父母(父母平均身高,即原文中的mid-parent height),其子代的身高(child height)通常高于平均水平,但不见得比父母还要高,反之亦然。即,子代身高具有向平均值“回归”的现象(regression towards mediocrity),大自然对进化具有一定的约束力,以保证人类身高的稳定性二避免两极分化。图 13.1和 图 13.2抽象地表达了子女身高向父母平均身高回归的现象。现代意义上的“回归”并非指“向均数靠拢” [2],而是指高尔顿对于变量间数量关系评价的方法。
图13.1: 父母与子女身高向均数回归现象
图13.2: Galton原始文献揭示
父母身高和子女身高的关系
通过散点图和拟合的回归线展示具有线性趋势之两指标间的关系。
通过拟合回归线的可信区间带(confidence band)和参考区间带(reference band),为条件参数估计和异常值识别提供更丰富的信息。
例: 本节用例为美国加州教育部所收集的400所小学的学生学业能力测评(academic performance index, API)数据,每一条记录代表一所小学,来源于R包survey中的数据集api。该数据集中包含学生2000年、1999年学习成绩(API)和班级规模、入学率、贫困情况等其他数据。为了便于展示,本例将有确实值的记录删除,最终保留295条记录以供分析。
下图展示2000年学生学业成绩(api00)和接受膳食补贴的学生比例(meals)之间的线性关系(图 13.3)。
由图可见,两者呈现线性趋势。散点图中间的直线即为回归线,表示接受餐补学生不同比例下的学业成绩的均数估计值(条件均数);回归线两侧的“带”即为95%可信区间带,表示各条件均数的可信区间估计。
两侧的boxplot反映两指标的分布情况。详情可参见“07 散点图”一节知识点。
图13.3:学生学业成绩和接受餐补学生比例关系散点图
例: 本例使用《医学统计学(第三版)》中10名3岁男童体重与体表面积(Body Surface Area, BSA)的例子来展示直线回归五线谱(图 13.4)。
在直线回归模型中,常绘制五线谱图,即回归线、各条件均数的95%可信区间带和给定X时Y值的容许区间(tolerance band)(图 13.4),容许区间就是总体中X固定时,个体Y值的波动范围。
图13.4:10名3岁男童体重与体表面积回归五线谱
在一维空间中,参考值范围是一个区间。例如,对于符合正态分布的数据的95%参考值范围可通过 (Mean-1.96SD, Mean+1.96SD)而获得。而在二维空间中,对于两个服从正态分布且呈具有相关性的指标来说,参考值范围不是独立的区间,而是一个椭圆(图13.5)。
例:本例使用500名江苏省小学女生的身高体重数据来展示参考值椭圆,在椭圆之外的点即为潜在离群值。
注意:这里的“参考值椭圆”,和上例中的“参考值范围带”,有何区别?在识别具有一定相关性的两个指标的潜在离群值,该用哪一种方法?
图13.5:500名小学女生身高体重
回归参考值椭圆
在评价线性回归模型时,通常会使用决定系数 来评价,同样也可以用回归的预测偏差来评价,即观测值到回归线的纵向距离(S)。S越小,说明模型拟合的越好,观察值更接近拟合线。
例:续首示例(图 13.6)。
图13.6:学生学业成绩与接受餐补
学生比例回归误差线图
单变量线性回归可用二维散点图展示,两个自变量的回归模型需要用3D图形来展示。
例:本例基于上例的第一个模型(lmfit1),用ploty
包实现三维散点图和动态交互(图 13.7)。
图13.7:三维散点图和响应面
模型拟合效果,需要客观指标来评估 [3],常见的有:
,决定系数(multiple correlation coefficient, determination coefficient),可反映模型的拟合优度(goodness of fit),代表的是一个或多个因变量与自变量线性组合的总的相关关系,即预测变量能解释结果变量变异的百分比例,范围为0到1, 越大代表拟合的越好。
,校正负相关系数(adjusted multiple correlation coefficient),又称修正复相关系数,在 基础上对方程中自变量个数进行了“惩罚”,只有当统计学意义上的变量被纳入回归方程, 方会增加。
AIC,赤池信息准则(Akaike’s Information Criterion),是日本学者赤池于1973年提出[4]。AIC处理统计问题大致分为三个步骤:提出统计模型,由极大似然估计法进行参数估计,根据AIC最小化准则来优化模型。AIC鼓励数据拟合的优良性但应尽量避免出现过拟合的现象。
BIC,贝叶斯信息量(Bayesian Information Criterion),对部分未知的状态用主观概率估计,然后用贝叶斯公式对后验概率进行修正,最后再利用期望值和修正概率做出最优决策。AIC和BIC均引入了对模型参数个数的惩罚项,但BIC的惩罚力度更大,更倾向于选择精简模型。
RMSE,均方根误差(root mean squared error),模型预测的结果与实际观察值间的平均误差,用来衡量观测值与预测值之间的偏差,RMSE越低,效果越好。
RSE,残差标准误(residual standard error),是对回归模型失拟合(lack of fit)的度量,RSE越小,代表方程拟合的越好。
例:本例中使用学生的学习成绩(api00)和享受膳食补贴的学生比例(meals)、学习英语的学生比例(ell)做3种简单的线性回归方程比较,可使用performance
包中的compare_performance
函数来比较几种回归模型的优劣,并做雷达图来更直观地显示。根据AIC和复相关系数R可看出拟合的第一个方程更好(图 13.8)。
图13.8:回归雷达图
进行线性回归,首先要通过散点图观察有无宏观线性趋势,有无不等方差等违背线性回归“LINE”要求的情况。 离群点或强影响点并非一定是异常点,而是提示研究者需要进一步核查数据的准确性,首先要排除是否存在数据错误,然后判断是否需要采取变量变换等措施。 “异常点”或许蕴含重要信息,不可简单的删除了事。所有删除数据的依据和操作都应如实记录,以免主观判断而影响样本的代表性,降低数据的“完整性(data integrity)”,进而有损结论的外推性。
参考文献:
Galton F. Regression towards mediocrity in hereditary stature. The Journal of the Anthropological Institute of Great Britain and Ireland [Internet]. 1886;15:246–63. Available from: http://www.jstor.org/stable/2841583
Bland JM, Altman DG. Statistic notes: Regression towards the mean. 1994;308(6942):1499. Available from: https://www.bmj.com/content/bmj/308/6942/1499.full.pdf
Burnham KP, Anderson DR. A practical information-theoretic approach. 2002;2.
Akaike H. A new look at the statistical model identification. 1974;19(6):716–23.
写作:魏永越*,张隆垚
排版:李 颖
审阅:陈 峰
欢迎供稿 | 敬请斧正
easyPlot小组 (easyplot@126.com)
责任作者 (weiyongyue@126.com)
Powered by 百步科技
连载(2):统计图形艺术——线图
连载(3):统计图形艺术——饼图
连载(4):统计图形艺术——直方图
连载(5):统计图形艺术——点图
连载(6):统计图形艺术——箱线图
连载(7):统计图形艺术——散点图
连载(8):统计图形艺术——热图
连载(9):统计图形艺术——三元图
连载(10):统计图形艺术——QQ图
连载(11):统计图形艺术——概率和统计分析
连载(12):统计图形艺术——曲线平滑
统计图形艺术——“图形”英文词意辨析